Dokumente kategorisieren

Was du nach diesem Kapitel kannst: Du kennst zwei grundlegende Strategien zur Dokumentenkategorisierung — anhand des Dateiformats und anhand des Dateiinhalts — und weißt, wann du welche einsetzt. Du kannst einen Kategorisierungs-Workflow aufbauen, einen Prompt für die KI-basierte Kategorisierung formulieren und eine Fehlerbehandlung für unerwartete Ergebnisse einplanen.

1. Warum Kategorisierung?

In der Praxis landen in automatisierten Workflows selten nur die Dokumente, die man erwartet. Ein Workflow zur Rechnungsverarbeitung empfängt vielleicht neben Rechnungen auch Lieferscheine, Angebote oder ganz andere Dateien. In einem Ordner auf einem Netzlaufwerk liegen PDF-Dokumente neben Excel-Tabellen und Bilddateien.

Dazu kommt ein Detail, das in der Praxis häufig vorkommt: Wenn Dokumente per E-Mail eingehen, werden auch in den E-Mail-Text eingebettete Bilder als Anhänge erkannt. Wenn jemand ein Firmenlogo in der E-Mail-Signatur hat, taucht dieses Logo als Datei auf — neben der eigentlichen Rechnung. Solche Dateien möchte man natürlich nicht verarbeiten. Sie müssen herausgefiltert werden.

Bevor ein Dokument also verarbeitet werden kann, muss der Workflow wissen, womit er es zu tun hat. Die Kategorisierung ist deshalb einer der ersten Schritte — sie entscheidet, welches Dokument wie weiterverarbeitet wird und welches ignoriert werden kann.

42°OS unterstützt dafür zwei grundlegend verschiedene Ansätze:

Format-basierte Kategorisierung — die Kategorie ergibt sich direkt aus dem Dateiformat (z. B. der Dateiendung)
Inhaltsbasierte Kategorisierung — eine KI liest den Dokumentinhalt und entscheidet anhand dessen, um was für ein Dokument es sich handelt

2. Format-basierte Kategorisierung

Manchmal reicht die Dateiendung bereits aus, um ein Dokument eindeutig einer Kategorie zuzuordnen. Ein Beispiel aus der Praxis: In Fertigungsunternehmen werden 3D-CAD-Zeichnungen in speziellen Dateiformaten abgelegt — etwa .stp, .step, .sat, .iges oder .3mf. Allein die Dateiendung reicht aus, um diese Dateien von PDF-Dokumenten oder Tabellen zu unterscheiden.

Ein anderes Beispiel: Bilddateien wie .png oder .jpg sind in einem Rechnungsverarbeitungs-Workflow fast immer irrelevant — etwa eingebettete Logos oder Signaturen. Wenn du weißt, dass in deinem Prozess keine Bilddateien als echte Dokumente vorkommen, kannst du diese Formate einfach herausfiltern.

In solchen Fällen ist kein KI-Einsatz erforderlich. Der Workflow prüft die Dateiendung und leitet das Dokument direkt in den passenden Verarbeitungspfad — schnell, zuverlässig und ohne Fehlerrisiko.

Für diese Art der Verzweigung gibt es in 42°OS den Switch Agent. Ein Switch Agent funktioniert wie eine Weiche: Er prüft einen bestimmten Wert in der Nachricht (hier die Dateiendung) gegen eine Liste von Bedingungen und leitet die Nachricht in den Pfad weiter, dessen Bedingung zutrifft.

[Eingehende Nachricht mit Dateiname]
      ↓
[Switch Agent — prüft die Dateiendung]
      ├── .pdf    → Verarbeitung PDF-Dokument
      ├── .xlsx   → Verarbeitung Tabelle
      ├── .stp    → Verarbeitung 3D-Zeichnung
      ├── .png    → ignorieren (vermutlich eingebettetes Bild)
      └── Sonstige → Fehlerbehandlung / manuelle Prüfung

💡 Faustregel: Wenn das Dateiformat in deinem Anwendungsfall ein eindeutiges und stabiles Erkennungsmerkmal ist, bevorzuge immer die format-basierte Kategorisierung. Sie ist einfacher zu warten und produziert keine unerwarteten Ergebnisse.

3. Inhaltsbasierte Kategorisierung mit dem Generative AI Agent

Wenn das Dateiformat allein nicht ausreicht — weil zum Beispiel Rechnungen, Lieferscheine und Angebote alle als PDF eingehen — muss der Inhalt des Dokuments analysiert werden. Das übernimmt der Generative AI Agent: ein Agent, der ein KI-Sprachmodell nutzt, um Text zu analysieren und eine Antwort zu generieren.

Schritt 1: Dateiinhalt bereitstellen

Bevor die KI ein Dokument kategorisieren kann, muss dessen Inhalt im Workflow verfügbar sein. Das Dokument liegt als Datei in der integrierten Dateiablage von 42°flow — der Workflow kennt den Dateipfad, aber nicht den Inhalt.

Der Read File Agent liest eine Datei anhand ihres Pfads und macht den Inhalt als Text in der Nachricht verfügbar. Danach kann der Generative AI Agent diesen Text analysieren.

[Nachricht enthält Dateipfad]
      ↓
[Read File Agent]     →   liest die Datei und schreibt den Inhalt als Text in die Nachricht
      ↓
[Generative AI Agent] →   analysiert den Text und gibt die Kategorie aus

⚠️ Nicht jedes Dateiformat lässt sich direkt als Text auslesen. PDFs funktionieren in der Regel gut. Bei Bilddateien oder speziellen Formaten können zusätzliche Vorverarbeitungsschritte nötig sein.

Schritt 2: Den Prompt richtig formulieren

Der Prompt ist die Anweisung, die du dem Generative AI Agent gibst. Er bestimmt, wie die KI den Text analysiert und was sie ausgibt. Die Qualität der Kategorisierung hängt fast vollständig von der Qualität des Prompts ab.

Ein guter Kategorisierungs-Prompt enthält vier Dinge:

Die möglichen Kategorien — eine vollständige Liste aller erlaubten Kategorienamen
Erkennungsmerkmale — woran erkennt man die einzelnen Kategorien? Welche Begriffe, Strukturen oder Merkmale sind typisch?
Rahmenbedingungen — in welchem Kontext arbeitet der Workflow? Welche Besonderheiten gibt es?
Eine strikte Ausgabeanweisung — die KI darf ausschließlich den Namen der Kategorie ausgeben, nichts weiter

Der letzte Punkt ist entscheidend: Ohne diese Anweisung antwortet die KI häufig in ganzen Sätzen, zum Beispiel "Dieses Dokument ist eine Rechnung." Das ist für einen Menschen verständlich, aber der nachfolgende Switch Agent kann mit diesem Satz nichts anfangen — er erwartet nur das Wort "Rechnung".

Beispiel für eine Ausgabeanweisung im Prompt:

Antworte ausschließlich mit dem Namen der Kategorie. Gib keine Erklärungen,
keine Sätze und keinen zusätzlichen Text aus. Erlaubte Ausgaben:
"Rechnung", "Lieferschein", "Angebot", "Sonstiges"

Schritt 3: Kategorien per Switch Agent weiterleiten

Nach dem Generative AI Agent folgt ein Switch Agent, der die ausgegebene Kategorie prüft und das Dokument in den passenden Verarbeitungspfad leitet — genau wie bei der format-basierten Kategorisierung.

[Generative AI Agent]
      ↓
[Switch Agent — prüft die ausgegebene Kategorie]
      ├── "Rechnung"     → Rechnungsverarbeitung
      ├── "Lieferschein" → Lieferscheinverarbeitung
      ├── "Angebot"      → Angebotsverarbeitung
      ├── "Sonstiges"    → allgemeine Ablage / Benachrichtigung
      └── Keine Übereinstimmung → Fehlerbehandlung (siehe unten)

4. Fehlerbehandlung: Was tun, wenn die Kategorisierung fehlschlägt?

Trotz gut formuliertem Prompt gibt es immer eine Restwahrscheinlichkeit, dass die KI etwas anderes ausgibt als erwartet — zum Beispiel einen erklärenden Satz oder eine Formulierung die nicht exakt mit den definierten Kategorien übereinstimmt. Der Switch Agent findet dann keine passende Bedingung.

Dieser Fall muss im Workflow behandelt werden. Empfohlenes Vorgehen:

Im Switch Agent einen Fallback-Pfad einrichten — das ist ein Pfad der greift, wenn keine der definierten Bedingungen zutrifft.
Über diesen Pfad einen zuständigen Mitarbeiter benachrichtigen — inklusive der Originaldatei und einem Hinweis, dass die automatische Kategorisierung fehlgeschlagen ist.
Der Mitarbeiter kann das Dokument dann manuell prüfen und den Prozess von Hand anstoßen.

💡 Diese Fallback-Logik ist kein Zeichen eines schlechten Workflows — sie ist ein Zeichen eines robusten. Kein KI-Modell kategorisiert mit 100 % Trefferquote. Der Workflow muss mit Ausnahmen umgehen können.

5. Beide Strategien kombinieren

In der Praxis werden format-basierte und inhaltsbasierte Kategorisierung oft kombiniert. Ein typisches Vorgehen:

Zuerst nach Dateiendung filtern — offensichtlich irrelevante Formate (z. B. .png, .jpg) sofort aussortieren
Dann den Inhalt analysieren — die verbleibenden Dokumente (z. B. alle PDFs) per KI inhaltlich kategorisieren

[Eingehendes Dokument]
      ↓
[Switch Agent — Dateiendung]       →  filtert irrelevante Formate heraus
      ├── .png / .jpg              →  ignorieren (z. B. eingebettete Bilder)
      └── .pdf / andere             →  weiter zur inhaltsbasierten Kategorisierung
            ↓
      [Read File Agent]            →  liest Dateiinhalt
            ↓
      [Generative AI Agent]        →  kategorisiert Inhalt
            ↓
      [Switch Agent — Kategorie]   →  leitet in den passenden Verarbeitungspfad
            ├── "Rechnung"         →  Rechnungsverarbeitung
            ├── "Lieferschein"     →  Lieferscheinverarbeitung
            └── Kein Match         →  Mitarbeiter benachrichtigen

Dieses zweistufige Vorgehen ist effizient: Dateien die sich anhand des Formats aussortieren lassen, werden gar nicht erst von der KI analysiert. Das spart Rechenzeit und vermeidet unnötige Fehlerquellen.

6. Zusammenfassung

Situation	Empfohlener Ansatz
Dateityp ist eindeutiges Erkennungsmerkmal (z. B. `.stp` für 3D-Zeichnungen, `.png` für Bilder)	Switch Agent auf Dateiendung
Inhalt entscheidet über die Kategorie (z. B. Rechnung vs. Lieferschein, beides PDF)	Read File Agent → Generative AI Agent → Switch Agent
Irrelevante Dateien herausfiltern und Rest per KI kategorisieren	Beide Strategien kombinieren (erst Format, dann Inhalt)
KI gibt unerwartete Antwort	Fallback-Pfad im Switch Agent → Mitarbeiter benachrichtigen

📹 Video: [Platzhalter — Screencast: Kategorisierungs-Workflow aufbauen — vom Read File Agent bis zum Switch Agent]

📸 Screenshot: [Platzhalter — Generative AI Agent: Kategorisierungs-Prompt]

📸 Screenshot: [Platzhalter — Switch Agent: Bedingungen und Fallback-Pfad]

1. Warum Kategorisierung?​

2. Format-basierte Kategorisierung​

3. Inhaltsbasierte Kategorisierung mit dem Generative AI Agent​

Schritt 1: Dateiinhalt bereitstellen​

Schritt 2: Den Prompt richtig formulieren​

Schritt 3: Kategorien per Switch Agent weiterleiten​

4. Fehlerbehandlung: Was tun, wenn die Kategorisierung fehlschlägt?​

5. Beide Strategien kombinieren​

6. Zusammenfassung​